http://www.arocmag.com/article/02-2019-12-016.html 
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摘 要 : 多 表 连 接 是 大 数据 分 析 领 域 重 要 的 查询 类 型 之 一 ， 然 而 连接 查询 的 实现 代价 很 高 ， 从 而 影响 了 大 数据 分 析 结 
有 果 的 时 效 性 。 在 线 聚 集 能 够 在 查询 完成 前 反馈 具有 统计 意义 的 估计 结果 ， 具 有 重要 的 意义 。 目 前 已 有 的 多 表 连 接 在 线 
聚集 算法 从 各 表 进 行 统一 随机 采样 ， 寻 致 连接 结果 的 产 出 率 低 ， 并 且 寻 致 分 组 连接 查询 的 估计 准确 率 低 。 针 对 这 一 问 
题 ， 提 出 了 基于 马尔 可 夫 链 的 多 表 连 接 在 线 聚 集 技术 ， 将 多 表 连 接 的 实现 过 程 转换 为 马尔 可 夫 链 上 的 随机 游 走 过 程 ， 
确定 好 连接 顺序 后 在 游 走 起 始 层 创建 分 层 样本 ， 并 设计 了 相应 的 采样 策略 及 结果 估计 方法 。 将 所 提出 技术 在 在 线 化 
Hadoop 平台 上 实现 ， 实 验 结果 证 明 所 提出 方案 的 响应 时 间 优 于 已 有 算法 ， 并 且 具 有 良好 的 扩展 性 。 
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Abstract: Multi-table join is one of the most important query operations in the field of big data analysis, however, the 
implementation of multi-table join is expensive, which affects the timeliness of the big data analysis results. Online aggregation 


provides feedback of statistical significance far before the query finishes, which is of great significance. The existing work on 


multi-table join online aggregation conducted uniform sampling on every joining table, which results in low join result yield 
and estimation inaccuracy on grouping join queries. To address this problem, this paper proposed the multi-table join online 
aggregation technique based on Markov chain, transformed the multi-table join process into the random walk on Markov chain, 
constructed stratified sample on the walk start strata after determining the join order, and designed the corresponding sampling 
mechanism and estimation algorithm. The experiment was conducted on the online Hadoop platform, and the results demonstrate 
that the response time of technique proposed in this paper outperforms the existing algorithms, and it owns efficient scalability. 
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0 引 案 .在 线 聚 集 于 20 世 纪 90 年 代 在 关系 数据 库 领 域 被 首次 提出 ， 

随后 取得 了 一 系列 的 研究 成 果 ， 然 而 在 关系 数据 库 市 场所 带 来 
社交 媒体 、 移 动 设备 及 传感器 以 前 所 未 有 的 速度 持续 产生 ”的 影响 力 十 分 有 限 。 随 着 大 数据 与 云 计 算 平台 的 出 现 ， 新 型 的 
着 海量 数据 ， 探 索 这 些 数 据 背 后 蕴藏 的 价值 已 经 成 为 目前 工业 ”数据 模式 和 数据 管理 方式 为 在 线 聚 集 带 来 了 发 展 机 会 。 然 而 目 
界 及 学 术 界 十 分 关注 的 问题 ， 然 而 复杂 的 数据 分 析 任 务 在 海量 。 前 在 云 计算 平台 的 在 线 聚 集 研究 大 多 关注 单 表 上 的 操作 ， 或 者 
数据 上 运行 缓慢 ， 使 得 分 析 结 果 的 时 效 性 和 价值 大 打折 扣 ， 成 。 简单 的 两 表 连 接 ， 针 对 多 表 连 接 的 研究 工作 还 比较 少 。 多 表 连 


ll 
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为 数据 驱动 任务 发 挥 作用 的 瓶颈 。 即 席 交 互 式 数据 分 析 在 决策 妆 是 决策 支持 、 数 据 挖 气 和 分 析 中 最 重要 的 操作 之 一 ， 在 大 数 
支持 、 趋 势 分 析 及 数据 可 视 化 等 领域 发 挥 重 要 的 作用 ， 成 为 据 决策 支持 应 用 的 基准 测试 TPC-HII 中 , 22 条 查询 语句 中 的 17 
前 大 数据 分 析 领 域 吸 待 解决 的 问题 之 一 。 在 线 聚 集 不 断 对 部 分 。 条 是 连接 查询 ， 最 多 涉及 8 表 的 连接 。 

样本 数据 进行 处 理 ， 从 而 可 以 在 较 短 时 间 内 返回 具有 统计 意义 相对 于 单 表 或 两 表 连 接 在 线 聚 集 ， 针 对 多 表 连 接 的 在 线 聚 


的 估计 结果 ， 为 即席 交互 式 数据 分 析 提 供 了 一 种 全 新 的 解决 方 ”” 集 处 理 方式 更 加 复杂 ， 已 有 的 工作 无 法 直接 应 用 。9) 多 表 连 接 
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类 型 呈 多 样 化 ， 包 括 链 式 连接 、 非 环 型 连接 、 坏 型 连接 等 ,不 样 ， 并 将 样本 数据 放 入 内 存 。 每 当 新 的 样本 从 其 中 一 张 表 中 读 
同 连接 类 型 的 在 线 查询 处 理 方法 及 结果 估计 方法 均 不 相同 ; b) ”取出 来 ， 将 会 和 其 他 表 中 已 经 读 取 到 的 所 有 数据 进行 连接 ， 该 
多 表 连 接 的 结果 空间 随 着 连接 表 数 的 增 大 呈 指 数 级 增长 ， 而 选 “过程 反 复 执行 ， 直 至 估计 结果 满足 用 户 需 求 时 停止 。 因 为 从 各 
择 率 通常 较 低 ， 已 有 的 采样 方法 将 导致 多 表 连 接 的 结果 产 出 率 ”个 表 中 抽取 样本 数据 时 并 不 考虑 数据 分 布 、 查 询 负载 等 信息 ， 
极 低 ，o) 多 表 连 接 总 体 的 数据 分 布 不 是 由 一 个 表 简 单 决 定 ， 而 “所 以 当 满足 连接 谓词 的 结果 较 少 或 者 分 组 较 多 时 , ripplejoin 的 
是 多 个 表 相 互 影 响 的 结果 ， 已 有 的 解决 小 分 组 等 问题 的 算法 无 ”估计 结果 产 出 率 非 常 低 。 针 对 基本 ripple join 算法 的 不 足 ， 随 
法 应 用 。 针 对 上 述 问题 ， 本 文 提出 了 基于 马尔 可 夫 链 的 多 表 连 ”后 关系 数据 库 领域 出 现 了 对 其 扩展 的 研究 工作 。 文 献 [12] 将 
接 在 线 聚 集 技术 MC-OLA， 将 多 表 连 接 处 理 过 程 转换 为 马尔 可 ”tipplejoin 算法 进行 了 并 行 化 处 理 , 然而 该 方法 并 不 具有 扩展 性 ， 


夫 链 上 的 遍历 游 走 过 程 ,基于 该 模型 在 游 走 起 点 创建 分 层 样本 ， 一 旦 内 存 无 法 再 加 载 数 据 时 ， 估 计 结 果 将 不 具有 统计 意义 ; 文 
针对 采样 方法 进行 结果 无 偏 估 计 和 置信 区 间 计 算 。 本 文 将 献 [13] 将 sort-merge 思想 应 用 到 ripplejoin 算法 中 ， 对 内 存 换 出 
MC-OLA 在 在 线 化 Hadoop 平台 HOP 中 上 实现 ， 实 验 结果 表明 到 外 存 的 数据 进行 随机 化 处 理 , 从 而 保证 估计 结果 的 统计 意义 ， 
MC-OLA 的 性 能 优 于 random walk 算法 及 ripple join 算法 ， 昌 在 引擎 DBO 上 实现 ， 文献 [14] 提 出 了 TurboDBO， 对 查询 处 
具有 良好 的 数据 扩展 性 。 里 过 程 中 的 中 间 结 果 进 行 有 效 利 用 ， 从 而 进一步 加 快 置信 区 间 
1 ”相关 工作 的 收敛 速度 。COLA[15] 基 于 MapReduce 框架 实现 了 两 表 连 接 
在 线 聚 集 ， 考 虑 到 云 计 算 平 台中 数据 存储 的 特点 ， 采 用 基于 数 


在 线 聚 集 于 20 世纪 90 年 代 在 关系 数据 库 领 域 被 首次 提出 ” 据 块 的 双重 分 层 采 样 方法 进行 数据 抽样 ， 对 ripple join 算法 进 
3, 其 主要 思想 是 在 查询 处 理 过 程 中 不 断 从 总 体 数据 进行 采样 ， 行 并 行 化 , 并 设计 MapReduce 作业 进行 实现 。 总 的 来 说 , ripple 
基于 样本 对 查询 结果 和 置信 区 间 进 行 估计 ， 随 着 处 理 数据 的 不 join 盲目 的 从 各 连接 表 中 随机 抽取 数据 ， 当 连接 谓词 的 选择 率 
断 增长 ， 查 询 结果 的 估计 质量 不 断 提升 。 针 对 单 表 查 询 的 在 线 。 较 低 、 或 者 连接 结果 的 分 组 较 多 时 ,连接 结果 的 产 出 率 非 常 低 ， 
聚集 操作 ,文献 [4] 给 出 了 无 偏 估计 和 置信 区 间 的 具体 计算 方法 。 从 而 导致 置信 区 间 的 收敛 速度 缓慢 ,文献 [16] 提 出 了 wanderjoin 
随 着 大 数据 技术 的 发 展 ， 在 线 聚 集 技术 在 云 计算 领域 又 引起 了 ” 算法 ， 在 连接 数据 表 上 进行 随机 游 走 ， 在 游 走 过 程 中 利用 连接 
泛 关 注 。 文 献 [5] 基 于 MapReduce 框架 提出 了 一 种 采用 贝 叶 ” 列 上 的 索引 确定 游 走 方向 ， 基 于 每 次 游 走 对 结果 进行 估计 。 
斯 理论 实现 在 线 聚 集 的 方法 ， 考 虑 每 个 数据 块 的 聚集 值 与 该 数 ” Wander join 解决 了 ripple join 在 连接 选择 率 较 低 时 ， 估 计 结 果 
据 块 处 理 时 间 的 关系 ， 将 数据 块 的 聚集 值 、 调 度 时 间 以 及 处 理 。 产 出 率 低 的 问题 ， 然 而 当 分 组 较 多 或 数据 倾斜 出 现时 ， 仍 然 会 
时 间 一 起 进行 统计 建 模 。 该 方法 假设 数据 块 的 处 理 时 间 越 长 ， 出 现 置信 区 间 收 敛 速度 缓慢 ， 甚 至 会 出 现 小 分 组 估计 结果 丢失 
那么 其 聚集 值 也 越 大 ， 该 假设 并 不 是 在 所 有 的 聚集 操作 中 均 成 ” 的 情况 。 本 文 使 用 马尔 可 夫 链 对 多 表 连 接 过 程 进行 建 模 ， 并 基 
且 实现 方法 也 比较 复杂 。G-OLAO 基 于 Spark 平台 实现 ， 于 分 组 列 集 进行 分 层 采样 ， 有 效应 对 连接 负载 或 数据 倾斜 导致 
主要 面向 嵌 套 查询 估计 的 优化 , G-OLA 采用 统一 随机 采样 技术 ”的 结果 估计 不 准确 及 置信 区 间 收 敛 速度 缓慢 的 问题 。 

进行 结果 估计 ， 利 用 髓 套 查 询 估 计 结 果 及 置信 区 间 ， 将 最 终 查 

询 结 果 分 成 确定 和 不 确定 两 个 部 分 ， 从 而 减少 更 新 过 程 中 的 数 

据 操 作 。BlinkDBWI 同 样 基于 Spark 平台 实现 , 分 析 查 询 负载 并 ”2.1 问题 建 模 

基于 查询 语义 选择 分 层 采样 的 列 集 ， 利 用 分 层 采样 技术 解决 小 采用 四 个 表 的 自然 连接 说 明 MC-OLA 的 建 模 过 程 , 设 连接 
数据 分 组 问题 , 但 未 解决 低 选 择 率 的 问题 PF-OLA 提 出 了 一 。 ”形式 为 


KE 


2 MC-OLA 概述 


个 在 分 布 式 环境 中 实现 在 线 聚 集 的 框架 ， 包 括 节点 内 部 数据 存 SELECT op(exp(ti,ty,,...,to,)) FROM R,R,,R,,R, 
储 、 分 布 式 数据 采样 、 查 询 处 理 以 及 结果 估计 实现 机 制 ， 使 得 WHERE R.A=R,.B and RC =R,.D and RE=R,F GROUP BY col; 
分 布 式 环境 对 在 线 聚 集 数 据 流 的 影响 降 到 最 低 。 文献 [9] 提 出 了 在 上 述 查 询 表达 式 中 ，op 是 具体 的 聚集 操作 ，exp 是 对 元 


一 种 面向 原始 数据 的 双 层 次 采样 算法 ， 在 数据 处 理 过 程 中 分 别 。 组 的 代数 操作 ，col 是 分 组 列 集 。 假 设 连 接 的 顺序 是 R1-R2-R3- 
从 数据 块 及 数据 块 内 部 进行 采样 ， 该 算法 能 够 根据 计算 资源 实 。 R4, 将 连接 过 程 转换 为 从 R1 到 R4 的 马尔 可 夫 随 机 过 程 , 如 图 
时 调整 采样 大 小 ， 从 而 减少 采样 代价 。CrowdOLA0O 将 基于 众 ”1 所 示 。 图 中 节点 表示 各 表 中 的 元 组 ， 若 两 个 节点 满足 连接 谓 
包 的 实体 解析 方法 与 在 线 聚 集 技术 相 结合 ， 解 决 了 在 重复 数据 ，” 词 ， 则 在 两 点 间 存 在 一 条 边 。 例 如 ， 刀 1 与 t31 间 存 在 一 条 边 ， 
上 进行 结果 估计 准确 性 不 高 的 问题 。 总 的 来 说 ， 上 述 研究 工作 ”表示 满足 条 件 21.C=B1.D。 从 t21 还 有 可 能 游 走 到 t32 和 +35， 
主要 关注 单 表 查询 的 在 线 聚 集 实现 技术 。 然而 这 种 选择 游 走 方向 的 概率 和 t21 之 前 的 路 径 无 关 ， 因 此 满 
单 表 查询 在 线 聚 集 的 实现 机 制 无 法 直接 应 用 于 多 表 连 接 查 足 马 尔 可 夫 性 质 。 从 R1 中 某 一 元 组 开始 游 走 到 R4 某 一 元 组 结 
询 的 在 线 聚 集 ， 因 为 从 各 个 表 进行 随机 采样 后 连接 的 结果 具有  ” 束 所 形成 的 随机 路 径 ， 即 为 一 个 连接 结果 。 

相关 性 ， 并 不 是 完全 随机 的 。Haas 等 人 0 对 该 问题 进行 研究 ， ”2.2 系统 架构 

提出 了 ripplejoin 算法 。Ripplejoin 从 各 连接 表 中 轮流 随机 采 MC-OLA 的 系统 架构 由 样本 创建 和 在 线 聚集 两 个 阶段 构 
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建 分 层 样 本 ， 分 层 依 据 为 查询 负载 中 的 分 组 列 集 。 分 组 列 集 选 


择 采 / 


文献 [17] 提 出 的 方法 ， 使 得 列 集 在 负载 中 出 现 的 概率 以 


及 负载 中 的 分 组 列 集 被 覆盖 的 概率 达到 最 大 。 基 于 确定 好 的 分 


组 列 


集 以 及 索引 的 分 布 情况 ，MC-OLA 确定 各 表 的 连接 顺序 ， 
进而 在 马尔 可 夫 链 的 游 走 起 点 创建 分 层 样本 。 在 在 线 聚 集 阶段 ， 


对 用 


户 提 交 的 多 表 连 接 查 询 语 句 进行 解析 ， 动 态 选择 查询 代价 


最 小 的 样本 进行 分 层 采 样 ， 进 而 估计 查询 结果 及 置信 区 间 。 


IS 癌 讨 菲 釜 硬 


ll 


5S 泗 讨 菲 其 桂 ZS 河 计 订 演 汪 


链 式 连接 图 


3 ”采样 技术 


单 表 在 线 聚 集 的 估计 总 体 为 表 中 的 全 部 元 组 


， 全 表 扫 描 即 


可 获得 各 层 样 本 及 样本 层 大 小 。 相 对 于 单 表 查 询 ， 多 表 连 接 的 


估计 总 体 为 连接 结果 或 


笛 卡 尔 积 的 子 集 ， 其 分 层 样 本 创建 要 复 


A 上 


杂 得 多 。 若 采 | 


上 小 


传统 的 ripple join 算法 ， 其 总 体 为 各 表 


乘积 的 子 集 , 计算 复杂 度 随 连接 表 数 的 增加 呈 指 数 级 增长 .MC- 


OLA 将 连接 过 


表 元 组 到 终点 表 元 组 的 随机 游 走路 线 ， 分 层 样 本 的 创建 通过 遍 


程 在 马尔 可 夫 链 上 进行 建 模 , 总 体 被 看 做 从 起 始 


是 正确 的 连接 顺序 。 引 到 


(a) 链 式 连 


引 理 1 


Ri-R2-Ra3…Rnm 为 合理 连接 | 
序 中 的 任意 表 Ri， 排 在 Ri 前 


接连 接 关系 。 


bg 


Ws 


接 
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录用 定稿 史 英 杰 ， 等 : MC-OLA: 基于 马尔 可 夫 链 的 多 表 连 接 在 线 聚 集 技 术 
成 ， 如 图 2 所 示 。 样 本 创建 阶段 结合 负载 特征 为 原始 数据 集 创 。“ Rs 以 及 Ri-R4-Rz-R1 均 是 合理 的 连接 顺序 ， 而 Rj-Ri-R2-R4 则 不 


E 1 给 出 了 多 表 连 接 顺 序 的 确定 准则 。 


Ri {RR 
SA i ~ 


(b) 非 环 型 连接 


三 
由 


全 


(c) 环 型 连接 


图 3 四 


设 查 询 语句 中 参 


与 连接 的 表 有 m 个 ， 则 连接 顺序 


表 连 接 类 型 


质 序 


的 充分 必要 条 件 为 : 对 于 连接 顺 


面 的 表格 中 至 少 有 


个 与 Ri 有 直 


证 明 


ZL 


不 


数学 归纳 法 进行 证 明 。 


a) 当 


个 表 Ri 与 Ri 


或 者 R2-Ri 两 


b) 假设 


种 ， 显 然 满 足 条 件 。 


行 连接 时 ， 连 接 顺序 包括 Ri-R， 


大 个 表 进 行 连接 时 ， 命 题 成 立 。 


充分 性 。 设 大 个 表 的 连接 序列 为 Ri-Rz-R3…Rk, 且 满足 “ 排 


在 Ri 前 


则 当 增 加 一 个 表 Rerl 参与 连接 时 , 将 Re 表 放 
中 Ri 和 Ri 之 间 ， 且 满足 Ri-Ri 的 表 中 人 至少 有 
到 Resl 可 完成 连接 ,连接 后 的 结果 与 Rirl 
到 Rx 的 序列 也 可 完成 连接 ， 因 此 连接 顺序 合理 。 
的 连接 顺序 为 Ri-Rz-Ra… 


接连 接 关系 , 则 从 RR 


必要 性 。 设 个 表 


在 Ri 前 


历 马尔 可 夫 链 实现 。 
人 查询 负载 ) 
re se 
| 分 组 列 集 确定 
了 人 分 层 样 本 1 】) - 
| 连接 顺序 确定 全 全 
[| 
et (ia 分 层 采 样 
数据 集 一 一 一 
| 广电 外 上 
六 分 层 样本 创建 ee 加 和 
样本 创建 阶段 在 线 聚 集 阶段 
图 2 MC-OLA 系统 架构 图 
3.1 确定 连接 顺序 
2.1 节 的 问题 建 模 基于 链 式 连接 介绍 , 而 多 表 连 接 还 包括 非 


环 型 连接 和 环 型 连接 。| 
表 间 存在 连接 关系 ， 则 四 表 的 连接 类 型 如 图 


多 表 连 接 的 查 i 


节点 表示 连接 表 ， 节 点 间 的 边 表示 两 
3 所 示 。 给 定 一 个 
和 ， 其 实现 连接 的 顺序 有 很 多 种 ， 而 不 同 的 连接 


顺序 对 采样 和 结果 估计 的 准确 性 及 收敛 速度 产生 不 同 的 影响 。 


因此 在 创建 分 层 样本 之 前 ， 


MC-OLA 首先 根据 负载 特征 和 索引 


分 布 情况 确定 连接 顺序 。 以 图 3(a) 中 的 链 式 连接 为 例 , Ri1-R2-R3- 


的 表格 中 至 少 有 


看 的 表格 中 至 少 有 


个 与 Ri 有 直接 的 连接 关系 ”条 件 ， 


:在原 连接 序列 


个 与 了 


-二 


k+1 


“Rk, 且 满 足 “ 排 


中 Ri 和 Ri 之 


间 » 


的 序列 


中 必定 至 少 有 一 


个 与 Ri 有 直接 的 连接 关系 ”条 件 ， 
则 当 增 加 一 个 表 Rk+i 参与 连接 时 , 将 Rer 表 放 置 在 原 连 接 序列 
量 新 的 序列 是 合 


里 的 连接 序列 。 则 Ri 到 


Ri 


长 表 与 Rk+1 存在 直接 连接 关系 ， 因 此 新 
的 合理 连接 序列 仍然 满足 直接 连接 关系 的 条 件 。 
基于 引 理 1 给 出 连接 顺序 确定 算法 。 首 先 根据 索引 情况 为 


证 明 完 毕 。 


连接 图 添加 方向 ， 若 Ri 与 Ri 间 存 在 一 条 连接 边 ， 且 Rj 在 连接 


于 表 Ri， 接 下 来 从 Ri 了 


可 在 游 走 完成 后 ， 利 | 


列 上 有 索引 ， 则 添加 方向 为 Ri 到 Ri， 反 之 亦 然 。 设 分 组 列 集 属 
于 始 对 有 向 图 进行 顶点 遍历 生成 连接 序 
列 ， 如 算法 3.1 所 示 。 该 算法 产生 的 连接 序列 为 连接 图 的 生成 


树 , 对 于 环 型 连接 ,所 生成 的 连接 序列 没 


包含 全 部 连接 关系 。 


和 法 1 连接 顺序 确定 算法 


日 


剩余 的 连接 关系 对 游 走 的 连接 结果 进行 
进一步 筛选 。 例 如 , 对 图 3(c)j 
且 生 成 的 连接 序列 为 : R3-Ri-Rz-R4， 利 
游 走 完成 后 对 连接 结果 进行 筛选 。 


TS 


的 查询 , 若 分 组 列 集 位 于 表 R3， 
] R2-R3 的 连接 关系 在 


Input: JoinArray[/N][N]: two-dimensional array containing the directed join 


query graph; 


Output: JoinList: 


join order list; 


1: JoinSearch(int n, int m) 


201810.00048v1 
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2:{ JoinList.add(n); 
3: for(int i=0;it+;i<m) 
4: if(Joindrray[n][i]==18&visited[i]==0) 
5: { visitedfi]=1; 
6: JoinSearch(i,m); 
天 让 
8:} 
3.2 创建 分 层 样本 游 走 起 始 层 

MC-OLA 将 分 组 列 集 所 在 表 放 置 在 马尔 可 夫 链 随机 游 走 
的 起 始 端 ， 基 于 起 始 端的 数据 表 Rs 创建 分 层 样本 的 游 走 起 始 
层 。 针 对 单 表 查询 创建 分 层 样本 时 ,样本 总 体 即 为 原始 表 数 据 ， 
因此 直接 根据 分 组 列 集 进行 分 层 ， 各 样本 层 中 元 组 的 个 数 即 为 
层 大 小 。 在 多 表 连 接 的 在 线 聚 集中 ， 样 本 总 体 为 多 表 连 接 的 结 
果 , 无 法 通过 单独 扫描 任何 一 个 表格 得 到 分 层 样本 。 针对 Rs 中 
的 任 一 元 组 tt，MS-OLA 基于 马尔 可 夫 链 从 进行 游 走 ， 计 算 
与 该 元 组 相关 联 的 连接 结果 的 个 数 ， 从 而 进一步 确定 tt 起 始 层 
的 大 小 。 

以 图 1 的 四 表 链 式 连接 为 例 对 样本 创建 过 程 进行 介绍 ， 若 
连接 序列 为 Rz-Ri-R3-R4， 则 以 Rs 为 起 始 端 进行 游 走 ， 并 创建 
分 层 样本 的 游 走 起 始 层 。 假设 游 走 的 起 始 元 组 为 {21， 当 游 走 至 
Ri 中 的 元 组 t11 时 ， 无 法 继续 前 进 ， 因 此 跳 转 到 {21 后 向 Rs 方 
向 继续 游 走 ， 直 至 游 走 到 R4 中 的 元 组 帮 1。MC-OLA 将 连接 
中 度 为 1 的 表 定义 为 “边缘 表 ”， 包 括 R1 这 类 游 走 过 程 中 遇 到 
后 需要 跳 转 方 向 的 表 ， 以 及 R4 这 类 标志 着 游 走 结束 的 表 。 一 
且 游 走 过 程 中 遇 到 “边缘 表 ” MC-OLA 记录 当前 游 走 分 支 的 
路 径 条 数 并 改变 游 走 方向 ， 最 终 的 连接 结果 数 为 各 个 分 支 路 径 
条 数 的 乘积 ， 具 体 实现 过 程 如 算法 3.2 所 示 。 给 定 游 走 起 始 元 
组 t, 沿 着 1 所 在 表 的 所 有 邻接 表 开 始 游 走 ( 第 4 行 至 第 15 行 )。 
若 连 接 的 邻接 表 R” 在 连接 图 中 的 连接 度 小 于 2, 则 说 明 R” 是 
“边缘 表 ”， 调 用 算法 getPathNum 计算 分 支 路 径 的 条 数 (第 8 
行 至 第 9 行 ); 否则 ,说 明 R” 还 能 沿 着 连接 序列 继续 游 走 ， 递 
归 调 用 算法 getJoinSize 获取 连接 结果 条 数 ( 第 10 行 至 第 13 行 )。 
最 终 将 各 个 分 支 的 连接 结果 相 乘 ， 得 到 以 t 为 游 走 起 始点 的 连 
接 结果 数 。 游 走 分 支 路 径 条 数 确定 方法 如 算法 3.3 所 示 ， 给 定 
分 支 路 径 的 起 始 元 组 上 及 游 走 方向 上 的 邻接 表 R， 根 据 R 在 连 
接 列 上 的 索引 获取 与 t 相 连接 的 元 组 (第 4 行 )， 对 元 组 数 进行 
累加 获得 分 支 路 径 的 条 数 〈 第 5 行 至 第 9 行 )。 

令 碟 1WV, 帮 ，…, 了 表示 数据 集 在 分 组 列 集 上 的 不 同 取 值 ， 
可 将 游 走 起 始 表 分 成 工 个 不 同 的 分 区 ， 每 个 分 区 即 分 层 样本 起 
始 层 的 “一 层 ” 每 层 的 大 小 由 以 该 层 中 所 有 元 组 开始 游 走 的 路 
径 数 决 定 。MC-OLA 扫描 分 组 列 集 所 在 表 的 元 组 ， 并 使 用 
getJoinSize 算法 计算 各 元 组 为 游 走 起 始点 的 连接 结果 数 ， 从 而 
创建 分 层 样本 起 始 层 。 尽 管 创建 样本 需要 扫描 连接 起 始 表 ， 并 
且 需 要 在 多 个 表 中 进行 游 走 ， 然 而 顺序 扫描 起 始 表 数 据 的 吞吐 
率 要 远 远 高 于 随机 读 取 数据 的 吞吐 率 ， 并 且 沿 着 多 表 马 尔 可 夫 
链 的 游 走 依据 索引 进行 ， 因 此 创建 样本 的 代价 在 可 接受 范围 之 


Tt 


多 


内 。 
算法 2 ”连接 结果 大 小 确定 算法 


Input: tuple t: walk start tuple; R: table containing t; L: join order list; 


Output: intjoinSize: number of joined results with tas the walk start tuple; 
1: int getJoinSize(tuple 力 

2:{ intjoinSize=1; 

3: inttempSize; 


4: for(int i=0; i++; i<join degree of R) 


SS { R=adjacentTable(2); 

6: if(R 'is visited) 

7: continue; 

8: if(R’ join degree < 2) 

9: tempSize=getPathNum(t, R’); 
0: else 
1: { while(t=walktowards (R’)) 
2: tempSize +=getJoinSize(t "); 
3 } 
4: JoinSize*=tempSize; 
3 小 
6: return joinSize; 
gy 


4 ”在 线 聚 集 实现 


4.1 采样 策略 

前 实现 连接 在 线 聚 集 的 主流 算法 是 ripplejoin, ripplejoin 
直接 从 各 个 连接 表 中 分 别 进行 统一 随机 采样 ， 并 不 考虑 数据 分 
布 对 连接 结果 的 影响 。 因 此 当 出 现 连接 选择 率 较 低 的 情况 时 ， 
会 导致 结果 产 出 率 低 及 小 分 组 的 估计 准确 率 低 。MC-OLA 采用 
马尔 可 夫 链 对 连接 进行 建 模 ， 将 连接 过 程 转换 成 多 表 上 的 随机 
游 走 ， 从 游 走 起 始 端的 数据 进行 分 层 采 样 。 在 线 聚 集 以 固定 的 
频率 更 新 结果 , 依据 更 新 频率 可 计算 出 每 次 抽取 的 样本 大 小 N。 


MC-OLA 并 不 是 将 各 表 的 原始 数据 作为 总 体 , 而 是 将 连接 结果 
作为 总 体 ， 因 此 NN 表示 连接 结果 的 大 小 ， 即 随机 游 走路 径 的 条 


数 。 在 采样 过 程 中 ， 将 V 分配 至 各 个 分 组 的 样本 层 。 为 了 使 估 
计 结 果 的 方差 和 最 小 , MC-OLA 的 样本 大 小 分 配 算 法 参考 文献 
[18] 提 出 的 类 平均 算法 。 从 每 个 分 层 中 抽取 样本 的 大 小 为 入 在 
工 个 样本 层 中 的 平均 值 和 剩余 样本 的 最 小 值 ， 若 总 的 样本 数量 
小 于 N, 则 将 Y 扩 大 至 W' 后 重复 上 述 过 程 ， 直 至 找到 使 得 总 采 
样 数量 最 接近 N 的 N'。 与 文献 [18] 中 的 算法 不 同 ,MC-OLA 各 
层 样本 的 剩余 值 是 指 连接 结果 数 ， 并 非 游 走 起 始 表 的 元 组 数 。 
算法 3 游 走 分 支 路 径 条 数 确定 算法 


Input: tuple t: walk start tuple; table R: the adjacent table according to the walk 


direction 
Output: int pathNum: number of walk path with tas the walk start tuple; 
1: int getPathNum( tuple 上 table R) 


2:4 


201 本 


国 
国 


IV 


录用 定稿 


3: intpathNum=0; 


4: tuple t=walkAccordingtoIndex(1,R); 


5: while(t”) 

6: { 

yh pathNumt++; 

8: t=walkAccordingtoIndex(1,R); 
9: } 


10: return pathNum; 


4.2 聚集 结果 及 置信 区 间 估 计 
确定 好 每 层 的 采样 


问题 建 模 的 连接 形式 ， 
实现 方法 ， 其 他 的 聚 


的 扩展 实现 。 采 用 图 1 所 示 的 链 式 连接 为 例 1 


数量 后 ， 从 样本 起 始 层 开始 进行 随机 游 
走 ， 游 走 的 次 数 为 该 层 所 分 配 的 样本 数 。 
聚集 操作 3 


查询 语句 基于 2.1 节 
要 讨论 SUM 和 COUNT 的 


操作 如 AVG、STD-DEYV 等 


车 可 通过 相应 
介绍 各 层 连 接 结果 


的 游 走 方法 ， 图 1 中 的 起 始 数据 被 分 为 三 个 样本 层 ， 聚 集结 果 
及 置信 区 间 的 估计 在 每 个 分 组 内 分 别 进行 。 当 对 样本 层 S17 进 


行 随机 游 走时 , 首先 从 57 中 随机 等 概率 
接 下 来 根据 R2 在 与 R1 连接 键 上 的 索引 ， 从 


设 t11 被 抽取 到 ， 


R2 中 与 t11 相 邻 的 元 组 中 随机 抽取 元 组 ， 


继续 向 下 游 走 ， 
据 多 次 游 走 抽 取出 


的 连接 结果 ， 


取 一 个 起 始 元 组 。 假 


依次 沿 着 马尔 可 夫 链 


直至 游 走 到 R4 结束 ,最 终 抽取 出 一 条 路 径 。 根 
对 聚集 结果 和 置信 区 间 进 行 估 


计 。 在 该 例 中 样本 层 S1 里 含有 6 条 路 径 ， 若 抽取 的 路 径 为 tl11- 


t21-t32-t42， 则 被 

抽取 每 条 路 径 

随机 抽样 获得 。 

设 起 始 层 术 
入 被 抽取 的 概率 为 

1 1 


条 路 径 


由 取 到 的 概率 为 124， 并 非 116。 利 | 
的 概率 不 相同 ， 所 以 连接 结果 的 样本 并 不 是 统 


本 分 别 为 8 52,.…， 


该 方法 
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史 英 杰 ， 等 : MC-OLA: 基于 马尔 可 


羊 估计 原理 ， 可 知 
P(A 


四 *exp,(4;) 是 对 总 体 聚 集 值 的 无 偏 估 


计 09; 


而 且 半 个 游 走路 径 


是 独立 的 ， 所 以 其 均值 仍然 是 对 总 体 


聚集 值 的 无 偏 估计 。 构 建 随机 变量 


上 


1 
X = *#exp (4)， 且 
站 P(4,) p,( 让 


满足 PC4) =1， 则 对 连接 结果 聚集 值 的 估计 转换 为 对 新 变量 


总 体 均值 的 估计 ， 根 据 中 心 极限 定理 ， 可 得 出 总 体 均 值 近似 服 
从 正 态 分 布 : ~ Normal(y4o?/1n)， 对 该 正 态 分 布 进行 标准 化 


处 理 后 可 得 Z=(y -7( 7 Normal(0,1) 
给 定 置信 度 ,可 得 P{(-z, <Z<z}=p, 使 用 样本 方差 
代 替 总 体 方 差 oo ， 即 可 得 


P{4— oo, /Nn<usut+z,o, /Mn}= PpP。 证 明 完毕 。 


p_in i 


5 ”实验 结果 分 析 


本 文 基于 HOPDI 平 台 的 MapReduce 框架 分 别 实现 了 MC- 
OLA、random walk 和 ripple join， 从 估计 结果 的 准 
区 间 的 收敛 速度 两 个 方面 进行 性 能 测试 和 比较 分 析 ， 
集 大 小 的 扩展 性 进行 了 测试 。 Random walk 采用 MC-OLA 的 连 
接 顺 序 确定 方法 , 不 同 的 是 , random walk 从 起 始 连 接 表 中 进行 
统一 随机 采样 ， 然 后 基于 样本 利用 连接 列 上 的 索引 进行 游 走 ， 
直至 游 走 到 连接 序列 中 的 最 后 一 张 表 。 实 验 采 用 大 数据 决策 文 


Sm, 给 定 样本 Si, 该 层 中 每 


1 1 
AR 


PC = 


[S| Bt) BC 


BV (ty) 


其 中 : B,(1) 为 R2 中 与 R1 的 元 组 tl 满足 连接 关系 的 元 组 。 设 


op(exp(4)) 为 路 径 4 所 对 应 的 连接 结果 上 的 聚集 


操作 ,定义 随机 变量 exp, (4) 


exp,()=exp(4); 若 op 为 COUNT 操作 ，exp,(4)=1。 


的 取 值 为 若 op 为 SUM 操作 ， 
给 定 


估计 的 分 组 ， 设 该 分 组 样本 大 小 为 mw， 定理 1 给 出 了 聚集 结果 


及 置信 区 间 的 估计 方法 。 


定理 1 p= > 去 


*eXDp， 


(4,) 是 对 多 表 连 接 聚 集结 果 


7=[ 忆 一 6,/ Mn,fit zo, /Mn] 


pn pn 


a 


证 明 路 径 和 i 被 
的 概率 不 同 ， 属于 独立 的 有 优 


的 无 偏 估计 ， 设 估计 结果 的 置信 和 度 为 p ， 则 置信 区 间 为 
中 


由 取 的 概率 为 P(4) ， 
采样 。 根据 Horvitz-Thompson 有 偏 


» 其 


exp,(4) -A 。 


每 条 路 径 被 抽取 


持 测试 基准 TPC-HID 中 的 查询 负载 及 数据 集 进行 。 
5.1 实验 配置 

实验 测试 平台 是 由 11 点 构成 的 集群 环境 , 节点 间 通 过 
1 Gbit 的 交换 机 相连 ， 其 中 一 个 节点 作为 HDFS 和 MapReduce 
的 主 节 点 ， 剩 余 的 10 i 软件 运行 平台 为 
HOP。 每 个 节点 拥有 4GB 内 存 和 3.3GHZ 的 四 核 CPU, 每 个 节 
点 的 磁盘 大 小 为 1TB。 设 置 文件 系统 HDFS 的 块 大 小 为 64M， 
在 每 个 节点 上 配置 2 个 map 任务 和 1 个 reduce 任务 。 

实验 的 连接 查询 负载 采用 TPC-H 中 的 Q5、Q11 和 Q21。 

其 中 Q5 是 六 表 非 环 型 连接 ，Q11 是 三 表 链 式 连接 ，Q21 是 四 
表 链 式 连接 。 涉 及 的 表格 包括 : 
supplier、nation 、region。 为 了 着 重 分 析 多 表 分 组 连接 查询 的 性 
能 ,实验 过 程 中 去 掉 了 查询 语句 中 的 orderby 及 having 等 部 分 。 
采用 TPC-H 中 的 数据 生成 器 产生 数据 , 并 根据 扩展 因子 产生 不 
同 大 小 的 数据 集 5GB、10 GB、15 GB、20 GB。 
5.2 性 能 测试 

实验 过 程 中 ， 将 置信 和 度 设 置 为 95%， 聚 集结 果 更 新 间隔 设 
置 为 2%， 即 每 当 查 询 进程 增加 2% 时 更 新 一 次 聚集 结果 。 采 用 
相对 错误 率 relative_error 衡量 估计 结果 的 准确 性 ， 在 分 组 聚集 
查询 中 ， 计 算 每 个 分 组 估计 结果 的 相对 错误 率 ， 并 对 所 有 的 数 


customer、orders、lineitem、 


据 进 行 平均 来 衡量 晶 整个 查询 语句 的 准确 性 ， 二 计算 方 式 为 
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录用 定稿 史 英 术 ， 等 : MC-OLA: 基于 马尔 可 夫 链 的 多 表 连 接 在 线 聚 集 导 
1 |estimateValue, ~ actualValue,| 置信 区 间 宽 度 的 时 间 分 别 是 95s 和 265s 左右 。 在 查询 Q11 和 
relative__error = > . L 
Na actualValue Q21 上 ，MC-OLA 的 响应 速度 也 有 类 似 的 表现 ， 优 于 random 


采用 相对 置信 区 间 宽 度 relative_interval 衡量 置信 区 间 的 收 walk3 倍 左 右 ， 优 于 ripple join 一 个 数量 级 。 一 方面 , MC-OLA 
敛 程度 ， 与 相对 错误 率 类 似 ， 计 算 各 个 分 组 的 相对 置信 区 间 宽 。 和 random walk 均 利用 连接 列 上 的 索引 进行 随机 游 走 实现 多 表 


度 的 平均 值 ， 其 计算 公式 为 连接 ，ripple join 分 别 从 多 个 表 中 进行 统一 随机 抽样 进行 连接 ， 
本 本 1 CE half width of confidence interval 而 且 样 本 之 间 并 不 是 独立 的 ， 所 以 MC-OLA 和 random walk 的 

relative _interval = > - 
入 汪 estimate result 执行 复杂 度 更 低 ， 连 接 “ 目 的 性 ”更 强 ， 连 接 结果 的 产生 率 要 
为 尽量 减少 实验 偏差 的 影响 ， 所 有 负载 执行 三 次 ， 取 其 平 高 于 ripple join。 男 一 方面 ，random walk 和 ripple join 分 别 从 
均值 进行 结果 分 析 和 展示 。 图 4 和 5 分 别 展示 了 在 10GB 大 小 连接 起 始 表 和 所 有 连接 表 中 进行 统一 随机 抽样 , 而 MC-OLA 采 


的 数据 集 上 三 个 查询 的 平均 相对 错误 率 和 相对 置信 区 间 宽 度 。 用 分 层 采样 技术 ， 并 且 将 每 个 分 组 的 连接 结果 作为 总 体 分 别 进 
MC-OLA 在 准确 性 和 估计 结果 收敛 速度 方面 均 明 显 优 于 行 估计 ， 因 此 在 查询 处 理 前 期 即 可 获得 小 分 组 的 数据 ， 从 而 提 
random walk 和 ripple join。 以 六 表 连 接 查询 Q5 为 例 , MC-OLA 高 了 小 分 组 的 估计 准确 性 和 收敛 速度 。 


ey 


在 25s 左右 时 相对 错误 率 已 经 小 于 1%， 相 对 置信 区 间 宽 度 已 
经 小 于 5%。 而 random walk 和 ripple join 达到 同样 的 错误 率 和 
0.16 
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eResTime(s) 


avgResTime(s) 
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avgResTime(s) 


和 10GB ,15GB 20GB 10GB 、 15GB 20GB 5 10GB 15GB 20GB 
Data Size Data Size Data Size 
(a) MC-OLA (b) Random Walk (c) Ripple Join 
图 6 扩展 性 (Scalability) 
5.3 ”扩展 性 测试 20 GB 上 的 平均 响应 时 间 。 可 以 看 出 , 随 着 数据 集 的 增 大 , MC- 


扩展 性 测试 通过 改变 数据 集 大 小 实现 ， 采 用 平均 响应 时 间 ”OLA 的 平均 响应 时 间 并 无 太 大 变化 ,random walk 和 ripple join 
avgResTime 衡量 响应 速度 ，avgResTime 表示 估计 结果 的 相对 错 ”的 平均 响应 时 间 则 随 着 数据 集 的 增 大 而 缓慢 增长 。MC-OLA 从 
误 率 开 始 小 于 1% 并 且 相对 置信 区 间 宽 度 开始 小 于 5% 时 的 时 间 。 样本 起 始 层 抽取 样本 后 ， 利 用 连接 列 上 的 索引 从 相 邻 元 组 中 抽 
图 6 展示 了 三 种 算法 在 数据 集 大 小 为 SGB、10 GB、15 GB 和  ” 样 进行 下 一 步 游 走 。 经 过 nn 次 游 走 后 得 到 的 连接 结果 数 只 与 马 


录用 定稿 
尔 可 夫 链 上 节点 的 出 度 、 游 走 的 成 功率 以 及 游 走 次 数 n 有 关 ， 


与 原始 数据 集 的 规模 无 关 ， 因 此 平均 响应 时 间 理 论 上 与 数据 规 
模 无 关 。 尽 管 random walk 也 是 通过 随机 游 走 实现 连接 ， 然 而 
在 分 组 连接 查询 处 理 中 ， 小 分 组 的 估计 相对 需要 更 多 的 样本 数 
据 , 且 随 着 数据 集 的 增 大 , 抽取 到 小 分 组 样本 的 概率 有 所 降低 ， 
因此 平均 响应 时 间 会 随 着 数据 集 的 增 大 而 有 所 增加 。 Ripplejoin 
随机 从 张 连接 表 中 抽取 个 样本 ,设备 连 接 表 之 间 元 组 的 连 
接 度数 为 4， 每 个 表 大 小 为 N， 则 能 得 到 的 连接 结果 数 为 


及 CD ,因此 平均 响应 时 间 呈 现 出 低 于 数据 集 线 性 增长 的 趋 
势 。 
6 ”结束 语 


多 表 连 接 查 询 是 大 数据 分 析 领 域 最 重要 的 操作 之 一 ， 然 而 
多 表 连 接 的 实现 复杂 度 较 高 ， 导 致 其 运行 时 间 较 长 ， 从 而 影 
了 数据 分 析 任 务 的 时 效 性 和 价值 。 在 线 聚 集 能 够 在 查询 完成 之 
前 反馈 具有 统计 意义 的 估计 结果 和 置信 区 间 ， 因 而 提供 了 一 种 
有 效 减少 运行 时 间 和 计算 代价 的 查询 实现 方式 。 目 前 已 有 的 多 
发 聚集 算法 以 ripple join 为 主 ， 从 各 个 连接 表 中 进行 


WE=Iy 


统一 随机 采样 ， 分 别 实现 新 数据 和 旧 数 据 的 连接 ， 然 后 进行 结 
果 估 计 。 这 种 算法 的 复杂 度 较 高 ， 且 当 连 接 选择 率 较 低 时 导致 
结果 产 出 率 极 低 。 除 此 之 外 ， 对 于 分 组 连接 查询 ， 还 会 导致 小 
分 组 的 估计 准确 度 较 低 。 本 文 提 出 了 基于 马尔 可 夫 链 的 多 表 连 
接 在 线 聚 集 技术 MC-OLA， 其 主要 贡献 包括 : 提出 了 实现 多 表 
连接 在 线 聚 集 的 系统 架构 ， 使 用 马尔 可 夫 链 对 多 表 连 接 进行 建 
模 ， 将 连接 过 程 转换 为 马尔 可 夫 链 上 的 随机 游 走 过 程 ， 提 出 了 
多 表 连 接 的 顺序 确定 方法 和 游 走 起 始 层 的 分 层 采样 算 

出 了 相应 的 采样 策略 和 结果 估计 算法 。 在 HOP 平台 上 的 实验 
结果 表明 ，MC-OLA 的 平均 响应 时 间 优 于 random walk 以 及 
ripplejoin, 而 且 具 有 良好 的 数据 扩展 性 。 目 前 MC-OLA 只 支持 
多 表 连 接 分 组 查询 ， 在 今后 的 工作 中 ， 将 围绕 舱 套 查询 、 多 查 
询 的 在 线 优 化 等 展开 进一步 的 研究 。 
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